Métodologia:

Este projeto fez uso de informações públicas sobre o rendimento de alunos do ensino secundário de duas instituições de ensino portuguesas: Gabriel Pereira (GP) e Mousinho da Silveira (MS). A coleta de dados ocorreu através de relatórios escolares e questionários aplicados aos estudantes.

O dataset possui características associadas a:

Dicionário de Variáveis

  • school: escola do estudante (GP ou MS)
  • sex: gênero (F ou M)
  • age: idade (15 a 22 anos)
  • address: tipo de endereço (U - urbano, R - rural)
  • famsize: tamanho da família (LE3 ≤ 3, GT3 > 3)
  • Pstatus: situação de coabitação dos pais (T - juntos, A - separados)
  • reason: motivo para escolha da escola (home, reputation, course, other)
  • Mjob / Fjob: profissão da mãe/pai (teacher, health, services, at_home, other)
  • Medu / Fedu: escolaridade da mãe e do pai (0 a 4)
Código Nível de Educação dos responsáveis
0 nenhum
1 Fundamenal I
2 Fundamenal II
3 Ensino Médio
4 Ensin Superior
  • guardian: responsável (mother, father, other)
  • traveltime: tempo de deslocamento até a escola (1 - <15min a 4 - >1h)
  • studytime: tempo de estudo semanal (1 - <2h a 4 - >10h)
  • failures: número de reprovações anteriores (0 a 4)
  • schoolsup: apoio educacional extra (yes/no)
  • famsup: apoio da família (yes/no)
  • paid: aulas extras pagas (yes/no)
  • activities: atividades extracurriculares (yes/no)
  • nursery: frequentou pré-escola (yes/no)
  • higher: desejo de cursar ensino superior (yes/no)
  • internet: acesso à internet em casa (yes/no)
  • romantic: possui relacionamento amoroso (yes/no)
  • famrel: qualidade do relacionamento familiar (1 - ruim a 5 - excelente)
  • freetime: tempo livre após a escola (1 a 5)
  • goout: frequência de saída com amigos (1 a 5)
  • Dalc: consumo de álcool durante a semana (1 a 5)
  • Walc: consumo de álcool no final de semana (1 a 5)
  • health: estado de saúde (1 - muito ruim a 5 - muito bom)
  • absences: número de faltas (0 a 93)

Variáveis de Notas:

G1: nota do 1º período (0 a 20) G2: nota do 2º período (0 a 20) G3: nota final do ano (0 a 20) — variável alvo do modelo

Observação: A variável alvo G3 possui forte correlação com G1 e G2, pois estas representam avaliações dos períodos anteriores no mesmo ano letivo.

Tecnologias Empregadas

  • RFID: Tecnologia proposta para automatizar o controle de presença.
  • Python: Uma linguagem usada para análise e modelagem.
  • Bibliotecas: Pandas,Numpy , Matplotlib, Seaborn, Scikit-Learn.
  • Aprendizado de Máquina: Retorno de Floresta Aleatória.

Fluxograma do Projeto

  1. Obtenção dos dados: Foram achados no Kaggle;

  2. Analise e Compreensão dos Dados: Análise das relações entre as variáveis, distribuição das mesmas e interpretação dos dados;

  3. Higienização e Pré-tratamento:

  • Manipulação de valores incongruentes;

  • Ajuste da distribuição das variáveis numéricas utilizando o MinMaxScaler.

  • Uso de Dummys nas variaveis binárias:

  1. Modelagem Preditiva:
  • Divisão em grupos de treinamento e teste (80/20);
  • Uso do algoritmo um Random Forest Regrassor para antecipar a pontuação final (G3) com base na frequencia;
  • Uso de uma Regressão Linear para afirmar se a numero de faltas afeta positivamente na nota dos alunos.
  1. Métricas:
  • MAE (Erro Médio Absoluto);
  • MSE (Erro Médio Quadrático);
  • Coeficiente de Determinação(R2).